JSAI2024 2日目

2024年度人工知能学会全国大会（第38回）の現地参加メモです daiiz.icon 2024/5/29

聴講した発表をいくつかピックアップ

適宜加筆修正します

https://gyazo.com/7ed3a66b992a0dbf9736036a72aa4b33

今日は快晴

JSAI2024 2日目: AI応用：医療・ヘルスケア

説明可能なAI

現場で使ってもらうための課題

招待講演: 進化する大規模言語モデル（国立情報学研究所相澤先生）

https://confit.atlas.jp/guide/event/jsai2024/subject/2A2-PS-2-01/entries

自然言語処理、情報検索、遺伝的アルゴリズム

1年前: ChatGPTの登場とその衝撃

この直後からの日本の動きはいい感じだった

テーマ: 自然言語処理の研究者はいま何をしているのか？

1 LLMの進化の系譜

https://lifearchitect.ai/models/#summary-models

Summary of current models: View the full data (Google sheets)

Hugging Faceでの公開モデル数が指数的に増加

進化系統図

LLMの進化の歴史を紐解くために重要な調査

埋め込み表現（2013）

分布仮説と文脈類似度

文脈と意味

文脈の近さによって意味の近さを測る

意味を数値で表し計算可能になる

文脈ベクトルの空間上の距離

文脈ベクトルによる意味空間

高次元でスパースな意味空間。困る。→ 様々な圧縮手法。分散表現もそのひとつ。

分散表現

Embedding: One hot vectorをLow dimension representationに表現すること

https://gyazo.com/83e417be113c3a892d8cb8b3c23f26e1 https://gyazo.com/819a1d6a71fcbb43eb1c198f4dc6846b

これまでで一番理解が捗った。感謝 daiiz.icon

埋め込み表現の「学習」

空欄に入る単語を予測（穴埋め問題）

Encorderに相当

次に来る単語を予測

Decorderに相当

Word2Vecが画期的だった点

概念間の関係（推論）が埋め込み空間上の計算で表したこと

BERTの時代（2017）

未知語の問題、多義語の問題

未知語: Out-of-vocabulary (OOV)

文の確率は単語の生起確率の掛け算で表現されるので未知語は死活問題

<UNK>トークンで代替する

サブワードへの分解（Byte Pair Encoding, 2016）

辞書にない単語を既知のものに分解していく

語義の曖昧性

"mouse": 動物なのかデバイスなのか

LSTMで語の順番を捉える。RNNで文脈に応じた意味付けができるようになった。

文脈の理解（Transformer）

Attention is all you need

attention head

文法と意味成約を学習できる

LLMの進化大規模化（2023）

事前学習パラダイムと自然言語処理

事前学習済み言語モデル

Pre-train, Fine-tune

エンジニアリングチャレンジ: 損失関数を工夫

Pre-train, Prompt, Predict

エンジニアリングチャレンジ: プロンプトで問題の与え方を工夫

これが大きなパラダイムシフト

Instruct GPT

スケーリング則と創発性

パラメータ数が大きいモデルほど性能が良い

モデルの結合

AgentとしてのLLMs

2 LLM構築の現場レポート

LLM-jp

OSSかつ日本語に強いLLMの構築と研究開発の推進

オープンプラットフォーム構築

NII LLMC

大規模言語モデル研究開発センター

構築の工程

コーパス構築

文書から文字列を抽出したもの

大きさの目安: 20トークン=1パラメータ

目的に合わせてコーパスを混合

混合比率も経験則

例: PaLMは対話データを多く含んでいる、AlphaCodeは100%コード

「質」が悪いと性能が落ちる

重複した文章が性能に悪影響を及ぼすこともある

課題: Token Crisis

良質かつ大量のテキストデータが必要だが枯渇したのではないかという問題

ウェブ空間でさえ足りなくなってきているという指摘も存在する

トークナイザー

サブワードへの分解みたいなもの

辞書は大きすぎないほうがいいが、トークン数は少ないほうがいい（再び経験則）

トークンサイズはコストと利便性直結する

トークン単位での課金

コンテキストウィンドウ長の成約

言語間の格差

例: 漢字がトークンに含まれているか？

スペースの扱いによる違い

例: プログラミングコードのモデルでは？

辞書から消してはいけない「必須語彙」を特定する作業などしている

トークン ≠ 形態素

逆にトークナイザーに都合の良い言語作れないかな daiiz.icon

モデル構築

「モデル構築は本当に大変です」

計算機に投げればできるでしょ、という世界ではない

ちょい高度な分散並列学習の技術が求められる

チューニング・評価、推論

タスクの例: 固有表現抽出、含意関係認識

タスク自体も多様化してる

ドメイン特化、マルチモーダル能力

評価データセットの大規模化につながる

BiGBIO

データリークの問題

評価データに訓練データの正解が含まれていてはいけない

しかし、ウェブ上で素材が公開されていてモデルが答えを既に知っている可能性があるが検出困難

推論タスクのブラックボックス化

答えを評価する前に「問題を理解しているか」を評価する難しさ

LLMの評価にLLMが必要

Learn from model: データからのみならず、モデルからも学習してる時代

データとモデルのエコシステム

透明性

基盤モデルのエコシステムのグラフ

事前学習コーパスを検索分析（開発中）

根拠とお模式文書がどのデータセットに含まれるか、どのステップで学習されたかわかる

https://gyazo.com/e52f54e08a8a4345f521a55ee0bd5734

3 論点提起

正しい言語とは何か？ delve問題

delve問題詳しく知らなかった。不勉強 daiiz.icon

解説見つけた: 生成AIによる「慣用表現の『乗っ取り』」と、その根底にある別の問題と - 渋谷駅前で働くデータサイエンティストのブログ

訓練に用いるテキストデータの品質保証（Llama-3）

経験則とトレードオフがいたるところに

モデル自体が研究対象に

https://gyazo.com/0dbe6fed768cda995177579d40d9dc8e

質疑応答

コーパス構築のリソース不足に関して

オープンなリソースはかなり枯渇している印象を持っている。一方でクローズドなものやモダリティを増やした領域にはまだ豊富にあると思っている。

倫理審査が機能すると考えるか

言語の正しさ問題

伝統的な日本語のコーパスに期待している面がある

どこかで言語のオブザーバーがあるといいとは思っているが

Transformerが究極の解であるとは思っていない

スケール則に基づくモデルの巨大化はどこまでいくのか

ある程度の賢さは期待されている。これを満たしたうえで、コストを下げる方向に向かうとは思う。

コストの最適配分

チュートリアル: JSAI2024 2日目: 機械学習と科学モデル

久しぶりに大学の講義を受けている感じを思い出した。難しい！daiiz.icon

スポンサー展示場の様子

株式会社Helpfeelはゴールドスポンサーとして協賛しています

https://gyazo.com/85719fb4563ceebb8dac6dc81aed79de

ブースの新衣装の法被

プライベートで書いているLLM利活用の技術同人誌を置いておく

https://gyazo.com/41a4d776b41ac2332df13f06b55728ca

知的生産のための画像検索システム開発記

Phonnoプロジェクトの話

LLM時代の検索を考える観察日記

激動の時代における各サービスの試行錯誤の記録

初期のBing AIやBard、Google SGEの観察日記など

スクリーンショットが多めの検索UIカタログ的な本

気になった瞬間に日頃からGyazoっておいたおかげであとから振り返って書けた一冊

というストーリーをブースでお伝えできてよかった daiiz.icon

学会ご飯

建物内を彷徨っていたらレストラン街に着いた

日替わり弁当とおにぎりを買った

https://gyazo.com/12f0015db7ca637e1784a950b79d32b5

#JSAI2024 #イベント参加レポート